“女娲”基因组资源第3篇 | 徐涛/何顺民团队解析中国人群基因组微卫星变异图谱
虽然STR具有广泛的变异与重要的功能,但由于序列的重复结构以及序列长度可能超过短读测序的读长,STR变异的分析难度大。STR分析的不足,也普遍被认为是导致人类性状和疾病的“遗传力缺失”问题的原因之一,揭示pSTR对复杂性状的贡献是一个长期的研究目标。因此,迫切需要构建一个完整、准确的人类基因组pSTR变异图谱。目前缺少对人群STR变异的大规模研究,构建包含中国人群在内的世界人群pSTR图谱,有助于弥补这一缺失,补充人类基因组STR多态性。
图1. 文章发表于Nature Communications
该项工作中,研究团队结合来自“女娲”基因组资源的3,983个高深度全基因组测序数据和来自千人基因组计划的2,504个高深度全基因组测序数据对STR变异进行了系统性地鉴定。经过严格的质量过滤,共鉴定到366,013个多态性STR位点(pSTR)上的超过155万个等位基因,其中约1/3(523,063个)等位基因为女娲数据集中特异发现的(图2)。
基于此pSTR数据资源,研究团队分析了STR位点的突变模式,发现STR突变受单元长度、染色体环境和表观遗传特征的影响。研究人员发现单元长度为6个碱基对的pSTR在亚端粒区域内富集,而其他pSTR或mSTR未发现在此区域内富集(图3)。
为分析pSTR潜在的基因调控效应,研究人员鉴定了3,273个与基因表达相关的STR位点(eSTR)以及1,117个与3'UTR选择性聚腺苷酸化相关的STR位点(3’ aSTR)。研究人员发现,这些pSTR显著富集在具有活性组蛋白标记的基因组区域和染色质开放区(图4)。
基于不同人群中的pSTR变异集合,研究人员发现了大量在人群间存在显著长度差异的pSTR,这些位点可能影响了不同人群之间的表型差异。例如,E2泛素结合酶家族成员UBE2L3内含子中的一个pSTR位点主要在东亚人群中存在扩增,且与GWAS研究已经发现的与克罗恩病、系统性红斑狼疮等多个性状相关联的SNP存在强LD关联(图5)。
综上所述,该研究报道了一个构建于6,487个基因组的366,013个多态性STR位点的变异图谱,包括3,983个中国样本(~31.5x,NyuWa)和2,504个来自千人基因组计划的样本(~33.3x,1KGP);发现STR的突变受单元长度、染色体环境和表观遗传特征的影响;鉴定了3,273个与基因表达相关的STR位点以及1,117个与3'UTR选择性聚腺苷酸化相关的STR位点。该研究探索了STR的人群特征,鉴定了人群间以及人群内部差异性的STR位点,还提供了已知的致病STR位点在人群中的长度分布。这一工作是目前国际上最大规模的STR变异研究之一,对人类基因组中STR变异的多样性和潜在功能提供了新的见解,为未来STR相关的研究提供了参考与基础。
中国科学院生物物理研究所的何顺民研究员、徐涛院士为该论文共同通讯作者,中国科学院生物物理研究所的博士研究生史忆戎、中国科学院大学生命科学学院的博士研究生牛仪伟为该文并列第一作者。该研究得到了中国科学院战略性先导科技专项、国家自然科学基金、国家重点研发计划、中国科学院信息化专项、国家基因组科学数据中心的支持。
·END·
热文推荐
PNAS | 打开神经网络黑盒:汪小我/王永雄团队提出自动归纳基因调控序列编码模式的神经网络解释方法
Cancer Cell | 基于儿童癌症模型图谱的多组学分析,揭示新的治疗机会和生物标志物
Nat Commun | 泛癌TME单细胞注释新工具——scATOMIC,可准确预测转移性肿瘤的原发组织
Nat Med|基因泰克及FMI等团队发表NSCLC患者风险分层的ctDNA模型
喜欢就点个"在看"吧